其他
中心成果 |《语言识别理论及语言数量统计的方法论研究》项目成果介绍
导 语
项目介绍
《语言识别理论及语言数量统计的方法论研究》项目由语言资源高精尖创新中心首席专家、中国社会科学院中国少数民族语言研究中心孙宏开教授,中心首席专家、原中国社会科学院中国少数民族语言研究中心主任黄行教授主持。项目于2017年12月立项,2021年3月开展结项工作。
项目由3个子课题构成:第一子课题由黄行教授负责,主要任务是通过有关权威文献和数据平台搜集、整理和保有世界各国和地区语言文字资料数据,建立世界主要语言文字知识库,探讨世界语言文字名称等专名的中文译写规则。第二子课题由孙宏开教授负责,主要任务是开展语言身份识别的理论方法研究。第三子课题由中心特聘研究员、南开大学冉启斌教授负责,主要任务是在相关大规模语言核心词汇基础上,建立用于距离计算与语言识别的ASJP模式数据库,绘制反映语言发生学关系的世界语言分类图谱。项目旨在:(1)填补我国世界语言文字知识资源保有状况的欠缺,为相关学术研究和政府语言规划制订,提供必要的数据资料支持。(2)充实和完善我国关于语言身份识别的理论方法研究。建立创新型的用于距离计算与语言识别的ASJP模式数据库,绘制反映语言发生学关系的世界语言分类图谱。(3)初拟世界语言文字名称专名中文译写规则,为相关科研和语文工作领域世界语言文字名称中文译写需求,提供参考规范。
项目成果
本项目成果属资源类成果,其主要内容包括:
(1)世界语言文字数据资源的搜集、整理和保有
世界语言知识库
基于该知识库开展了“我国周边国家的语言状况”“一带一路沿线国家的语言状况”这两项当前与我国语言事务关系最密切的世界区域国别语言问题的专题研究。
世界文字知识库
(2)充实和完善我国关于语言身份识别研究的理论方法
项目成果制作了包含迄今为止世界语言数量最大的9788语档的ASJP模式数据库,极大地丰富了我国学术界关于世界语言、中国的语言,特别是汉语方言语档的数据量。
项目依据LDND距离的全面计算,形成4个数值区间,可以用以区分传统上“不同语系语言”“相同语系不同语族语言”“相同语系相同语族语言”和“相同方言变体”等4种区分层级,为确定语言变体之间的身份和关系提供了客观有效的指标。
(3)初拟世界语言文字名称专名中文译写规则
应用价值
该项目成果仍处研发阶段,未来有望在与语言资源相关的学术领域、科研教学机构,以及政府和企事业研发部门产生相应的影响。
以上述三项项目基本成果为例,(1)“世界语言文字知识库”是中心世界语言资源保有的一项必不可少的基本建设内容;(2)基于大数据和复杂算法的“语言身份识别研究理论方法”,将对世界语言和中国的语言身份识别研究提出创新性理论模式,与可供国内和国际学界研讨的学术平台;(3)“世界语言文字名称中文译写规则”可以填补我国“科学技术名词规范”领域尚未系统建立的“世界语言文字名称”专名的空白,为“信息与文献”领域世界语言文字名称及代码的标准研制提供基础数据。
中心成果 |《新选中国名诗1000首:当代诗学名家经典选释系列》项目成果介绍中心成果 | 《中文句法语义分析及其应用》项目成果介绍
中心成果 |《海外华语资源库建设》项目成果介绍中心成果 |《中俄经贸合作数据库及俄汉语智能化综合服务平台》项目成果介绍
中心成果 |《中国周边(6国)语言资源库建设》项目成果介绍中心成果 |《当代中国军事领域语言应用状况》项目成果介绍